中位数 - 简单教程与示例

作者：Ruben Geert van den Berg，归属于统计 A-Z

对于奇数个数值，中位数是所有数值排序后的中间值。对于偶数个数值，中位数是所有数值排序后中间两个数值的平均值。以下来自这个 Googlesheet (只读) 的示例将使这一点非常清楚。

中位数 - 简单数据示例

V1 包含按升序排序的 1 到 5 的值。中位数 - 中间值 - 是 3。
V2 包含按升序排序的 1 到 6 的值。中位数是 3.5。它是中间两个值 3 和 4 的平均值。
V3 是 V2，其中 6 被替换为 100。这极大地影响了均值，但中间两个值 - 因此中位数 - 保持不变。
V4 包含 V3 的值，顺序随机。除非我们首先对它们进行排序，否则中位数不是中间两个值的平均值。
V5 包含重复值：值 1 出现 5 次。由于这些值已排序，因此中位数是中间两个值（1 和 1）的平均值。

请注意，对于 V2 到 V4，中位数是将 50% 最高值与 50% 最低值分开的值。这适用于我们在真实世界数据中找到的大多数（半）连续变量，例如：

以美元为单位的每月确切收入，
以克为单位的体重，或者
以天为单位的年龄。

但是，对于大量重复数据（如 V5）或少量观测值，这可能根本不成立。

中位数与均值的关系

我们稍后将讨论中位数与均值的优缺点。让我们首先看看它们之间的关系。这主要取决于某个变量的频率分布的偏度 (Skewness)：对于对称分布的变量，中位数等于均值，这意味着偏度 = 0。下图说明了这一点。

对于这 1,000 个测试分数，偏度基本上为零。样本均值 (M) = 50.8，而中位数 (Me) = 51.0。指示它们在 x 轴上的红线无法区分。当偏度很大时，会出现不同的模式。首先，对于正偏变量，中位数小于均值，如下所示。

这里发生的事情基本上是，一些非常高的分数会影响均值，但不影响中位数。我们已经在最初的示例中看到了这一点：将 {1,2,3,4,5,6} 更改为 {1,2,3,4,5,100} 会极大地影响均值，但两个变量的中位数均为 3.5。上面的直方图显示了完全相同的现象，但它使用了更真实的数据。正如您现在可能猜到的那样，相反的情况也成立：对于负偏变量，中位数大于均值，如下图所示。

这里发生的事情基本上是，非常低的分数“拉低”了均值。但是，中位数不受这些影响。

中位数的优势与劣势

到目前为止，本介绍隐含地指出了中位数与均值相比的一些优势：

中位数对异常值 (Outliers) 不敏感。因此，由于某个亿万富翁的存在，某些人的平均工资可能很高。在这种情况下，我宁愿知道中位数工资。这将告诉我（大致）哪个工资将 50% 最低收入与 50% 最高收入分开。这是这些人倾向于赚取的更现实的估计。
均值仅适用于定量变量。中位数也适用于有序变量 (Ordinal variables)。但是，有序变量通常具有大量的重复值（多次出现的值）。对于此类变量，中位数可能会产生误导，如下所示。

尽管教师 B 的评价比教师 A 好得多，但他们的中位数评价是相同的。

除了这些优势之外，中位数也有一些劣势：

中位数不适用于数值计算。例如，可以从均值和样本大小计算总和，但不能从中位数计算总和。两个均值之间的差异很容易解释，但两个中位数之间的差异却很难解释。
在存在重复值的情况下，非常不同的变量可能具有相似的中位数。
中位数可能实际上并不存在。例如，如果两个人有 0 个和 1 个孩子，那么他们的中位数是 0.5 个孩子。
据说中位数在样本之间的波动比均值更大。也就是说，它不太稳定并且具有更大的标准误差。

在 Googlesheets 中查找中位数

使用 Googlesheets 查找中位数非常容易。例如，在任何单元格中键入 =MEDIAN(B2:B7) 将得到单元格 B2 到 B7 的中位数（假设所有非空单元格都包含数字）。此 Googlesheet（只读）中显示了更多示例。

在 SPSS 中查找中位数

在 SPSS 中，找到中位数的最佳方法是从 A nalyze（分析） SPSS 菜单箭头 C ompare Means（比较均值） M eans（均值）。使用此对话框创建一个表格，显示各种描述性统计信息，包括均值、标准差、偏度、峰度等。可以选择为由“Independent List（独立列表）”定义的单独组报告这些信息。

一个更快的选择是键入并运行生成的语法 (Syntax) - 一个简单的 MEANS 命令 - 例如：

means v1 to v5
/cells count mean median.

下面显示了生成的表格的示例 - 经过一些调整后。

请注意偏度和（均值 - 中位数）之间的巨大正相关性 (Correlation)：变量的负（左）偏度越大，中位数就越大。对于正（右）偏变量，则出现相反的模式 - 均值大于中位数。这之前已通过一些基于与此表相同的数据文件的直方图进行了说明。

中位数的统计显著性 - 符号检验

最流行的统计技术之一是 t 检验 (t-tests)。这些检验检验两个均值之间的差异是否具有统计显著性 (Statistical significance)。但是，如果我们想检验中位数而不是均值怎么办？在这种情况下，我们将得到 3 个中位数检验之一，有时称为 符号检验 (sign tests)：

单样本中位数符号检验 (Sign test for 1 median) 类似于单样本 t 检验 (one sample t-test) 用于中位数：它将样本中位数与假设值进行比较。
独立样本中位数符号检验 (Sign test for independent medians) 类似于独立样本 t 检验 (independent samples t-test) 或单因素方差分析 (one-way ANOVA) 用于中位数：它检验 2 个或多个总体是否具有相等的中位数。
配对样本中位数符号检验 (Sign test for related medians) 类似于配对样本 t 检验 (paired samples t-test) 用于中位数：它检验在相同人员或其他观测值上测量的 2 个变量是否具有相等的中位数。

单样本中位数符号检验基本上是这样工作的：

每个小于假设中位数的值都替换为减号 (-)；
大于假设中位数的值都替换为加号 (+)；
如果假设的中位数是正确的，那么所有符号中大约 50% 应该是加号；
二项检验 (Binomial test) 检验样本中加号的比例是否与 0.5 显着不同。

其他符号检验遵循相同的基本原理。符号检验不是很流行，因为重复值对它们来说是有问题的，并且它们往往具有较低的统计功效 (Statistical power)。